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摘 要 在 心理 与 教育 测量 中 , 潜在 加 工 速度 反映 学 生 运 用 潜在 能 力 解决 问题 的 效率 。 为 在 多 维 测验 中 
探究 潜在 加 工 速度 的 多 维 性 并 实现 参数 估计 ,本 研究 提出 多 维 对 数 正 态 作答 时 间 模 型 。 实 证 数据 分 析 及 
模拟 研究 结果 表明 : (1) 潜 在 加 工 速度 具有 与 潜在 能 力 相 匹 配 的 多 维 结构 ，(2) 新 模型 可 精确 估计 个 体 水 
平 的 多 维 潜在 加 工 速度 及 与 作答 时 间 有 关 的 题目 参数 ，(3) 元 余 指 定 潜 在 加 工 速度 具有 多 维 性 带 来 的 负 
面 影 响 低 于 忽略 其 多 维 性 所 带 来 的 。 
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1 引 

近 些 年 ， 随 着 计算 机 化 测验 的 普及 ， 对 题目 作答 时 间 (response times, RT) 及 其 他 过 程 数据 的 采集 已 
趋 于 常态 化 。 例 如 ， 自 2012 年 以 来 ， 国 际 学 生 能 力 评估 项 目 (PISA) 就 开始 采用 计算 机 化 测验 采集 学 生 
的 RT 数据。 已 有 研究 表明 ，RT 数据 作为 传统 作答 精度 数据 外 的 一 种 补充 ， 不 仅 能 够 提供 学 生 在 问题 
解决 中 的 加 工 速度 信息 ， 在 联合 分 析 中 还 可 以 提高 对 潜在 能 力 的 测量 精度 (Bolsinova & Tijmstra, 2017; 
van der Linden, Klein Entink, & Fox, 2010; 詹 沛 达 , 2019)。 因 此 ， 近 些 年 对 RT 数据 的 分 析 成 为 了 国内 外 
心理 与 教育 测量 领域 的 新 热点 之 

研究 者 基于 认 知 心理 学 理论 和 实验 研究 提出 了 多 种 RT 模型 (参见 De Boeck & Jeon, 2019; E, M 
WISIN, 夏 凌 翔 , 2017)。 其 中 ， 速 度 -精度 权衡 (speed-accuracy trade-off; Luce, 1986) 是 一 些 早期 RT 模型 所 
探讨 的 主要 议题 (例如 , Ferrando & Lorenzo-Seva, 2007; Wang, T. & Hanson, 2005), 即 对 于 特定 的 任务 , 被 
试 的 加 工 速度 越 快 则 其 加 工 精 度 ( 或 成 功率 ) 越 低 ; 反之 , 被 试 的 加 工 速度 越 慢 则 其 加 工 精 度 越 高 。 然 而 ， 
该 权衡 反映 的 是 加 工 速度 与 加 工 精度 在 个 体内 (within-persom) 的 关系 (van der Linden, 2009)， 无 法 通过 横 
断 研 究 /测验 来 评估 (Curran & Bauer, 2011)。 通 常 ， 对 于 一 组 固定 的 任务 /题目 ， 一 旦 被 试 的 加 工 速度 被 
国定， 那么 其 加 工 精 度 也 是 固定 的 ; 因此 ， 建 议 对 加 工 速度 和 加 工 精度 分 别 建 模 ， 而 与 之 相对 应 的 潜在 
加 工 速度 和 潜在 能 力 之 间 的 关系 可 以 在 更 高 的 层次 上 建构 (van der Linden, 2006; 2007; 2009)。 当 前 ， 使 
用 最 多 的 是 对 数 正 态 RT 模型 (lognormal RT model, LRTM) (van der Linden, 2006)， 也 有 一 些 研究 对 该 模 
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型 做 了 进一步 拓 广 (例如 ， 孟祥斌 , 2016; Klein Entink, van der Linden, & Fox, 2009; Wang, C., Chang, & 
Douglas, 2013). 

为 进一步 探究 潜在 加 工 速度 与 潜在 能 力 之 间 的 关系 , van der Linden (2007) 提 出 了 贝 叶 斯 层级 建 模 框 
架 。 该 框架 的 基本 逻辑 是 ,在 个 体内 ,潜在 加 工 速度 对 RT 的 影响 和 潜在 能 力 对 作答 精度 Cesponse accuracy, 
RA) 的 影响 是 相互 独立 的 ， 而 在 群体 内 ( 即 个 体 间 )， 潜 在 加 工 速 度 与 潜在 能 力 之 间 具 有 相关 关系 。 鉴 于 
该 框架 的 灵活 性 ， 通 过 蔡 换 不 同 的 测量 模型 已 形成 多 种 联合 模型 (例如 ， 詹 沛 达 , 2019; Guo, Luo, & Yu, 
2020; Lu, Wang, Zhang, & Tao, 2019; Man, Harring, Jiao, & Zhan, 2019; Wang, C. & Xu, 2015; Wang, Zhang, 
Douglas, & Culpepper, 2018; Zhan, Jiao, & Liao, 2018)。 但 目前 , 绝 大 多 数 联 合 模型 都 仅 适用 于 单 维 测验 ， 
即使 用 单 维 题目 作答 理论 (item response theory) 模 型 来 分 析 RA 数据 并 使 用 单 维 RT 模型 来 分 析 RT 数据 ; 
而 仅 有 的 几 个 模型 虽然 关注 到 了 潜在 能 力 的 多 维 性 问题 , 但 仍 假设 潜在 加 工 速度 是 单 维 的 , 进而 使 用 多 
È IRT (multidimensional IRT, MIRT) 模 型 分 析 RA 数据 并 仍 使 用 单 维 RT 模型 来 分 析 RT 数据 ( 詹 沛 达 ， 
2019; Man et al., 2019; Wang, Weiss, & Su, 2019; Zhan, Jiao et al., 2018)。 导 致 该 问题 的 主要 原因 是 目前 尚 
未 有 研究 者 关注 到 潜在 加 工 速度 可 能 存在 多 维 性 的 问题 ， 同 时 也 缺少 相应 的 分 析 模 型 。 
在 心理 和 教育 测量 中 ， 关 于 潜在 加 工 速度 的 一 个 恰当 的 概念 是 劳动 的 速度 (speed of labor) (van der 
Linden, 2009)。 因此, 潜在 加 工 速度 可 被 定义 为 “解答 某 题目 时 所 付出 劳动 与 所 花费 时 间 的 比例 (a rate of 
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the amount of labor performed on the items with respect to time)” (van der Linden, 2011D) 。 湾 在 加 工 速度 反 
映 了 学 生 运用 潜在 能 力 (例如 ,知识 或 技能 ) 来 解决 问题 的 效率 。 针 对 同一 道 题目 ， 学 生 消 耗 的 作答 时 间 
或 少 表明 其 潜在 加 工 速度 越 快 ， 反 映 出 学 生 运 用 该 题目 所 需 的 知识 或 技能 的 效率 越 高 。 在 多 维 测验 中 ， 
由 于 潜在 能 力 的 多 维 性 , 潜在 加 工 速度 应 该 在 特定 的 测验 维度 中 与 潜在 能 力 一 起 讨论 ， 即 潜在 加 工 速度 
也 可 能 具有 与 潜在 能 力 相 匹 配 的 多 维 结构 。 换 句 话 说 , 被 试 在 每 个 测验 维度 上 的 潜在 加 工 速度 与 该 维度 
所 需 的 潜在 能 力 相 匹配 。 例 如 ， 被 试 在 解码 任务 中 的 潜在 加 工 速度 与 该 任务 所 需 的 解码 能 力 相 匹配 ， 而 
被 试 在 编码 任务 中 的 潜在 加 工 速度 与 该 任务 所 需 的 编码 能 力 相 匹配 。 再 比如 ， 当 非 英语 母语 被 试 参加 
GRE 学 科 测 验 (例如 ， 数 学 或 英语 文学 ) 时 ， 至 少 需要 两 个 潜在 能 力 ， 一 个 用 于 理解 题目 (例如 ,英语 阅读 
能 力 )， 一 个 用 于 解决 问题 (例如 ， 学科 能 力 )。 这 会 涉及 到 对 应 的 两 个 潜在 加 工 速度 ， 一 个 反映 理解 题目 
的 速度 ， 一 个 反映 解决 问题 的 速度 。 

对 此 ， 本 研究 假设 : 在 多 维 测验 中 ， 潜 在 加 工 速度 具有 与 潜在 能 力 相 匹配 的 多 维 结构 。 已 有 一 些 认 
知心 理学 证 据 可 能 支持 该 假设 。 首先, 不 同 的 大 脑 区 域 工作 对 应 于 不 同 的 认 知 加 工 功能 ， 适当 的 行为 表 
现 取 决 于 特定 大 脑 区 域 之 间 的 相互 作用 (Horwitz et al., 1999; Mesulam, 1990)， 这 也 是 功能 磁 共 振 成 像 
(EMRD 和 脑 电 图 (EEG) 的 基本 逻辑 。 从 概念 上 讲 ， 不 同 认 知 任务 所 需 的 不 同 认 知 加 工 功 能 具有 不 同 的 认 
知 加 工 速度 。 其次, 与 在 实验 心理 学 中 用 来 记录 反应 时 (reaction time) 的 简单 刺激 任务 (例如 ,数字 广度 任 
务 [digit-span task] 等 其 他 不 涉及 特定 陈述 性 和 程序 性 知识 的 刺激 任务 ) 不 同 , 心理 和 教育 测量 中 的 题目 始 
终 是 对 特定 认 知 建构 或 能 力 的 测 查 。 因 此 ， 在 心理 和 教育 测量 中 观察 到 的 RT 应 包括 两 个 部 分 : 用 于 加 
工 所 有 信息 的 基本 反应 时 和 运用 特定 潜在 能 力 所 消耗 的 时 间 。 鉴 于 题目 水 平 的 RT 无 法 区 分 两 者 ， 所 以 
必须 将 它们 视 为 一 个 整体 来 看 待 。 此 时 ， 我 们 可 以 使 用 “特定 维度 的 加 工时 间 (dimension-specific 
processing time)” 来 指 代 题目 水 平 RT， 并 使 用 “特定 维度 的 加 工 速度 (dimension-specific processing speed)” 
来 指 代 多 维 潜 在 空间 中 特定 维度 中 的 加 工 速度 。 因 此 ,与 潜在 能 力 一 样 ， 潜 在 加 工 速度 的 维度 数 也 可 由 
测验 所 包含 的 维度 数 来 确定 。 
目前 ， 尽 管 针 对 RA 的 MIRT 模型 已 经 得 到 较 好 的 发 展 (Reckase, 2009)， 但 尚 缺乏 可 分 析 多 维 洪 在 
加 工 速度 的 多 维 RT (multidimensional RT, MRT) 模 型 。 如 上 文 所 述 ， 近 期 已 有 一 些 研究 尝试 使 用 MIRT 
模型 来 分 析 多 维 潜在 能 力 ， 但 仍 使 用 URT 模型 来 分 析 可 能 存在 的 多 维 潜在 加 工 速 度 ( 詹 沛 达 , 2019; Man 
et al., 2019; Wang, C. et al., 2019)。 然 而 ， 由 于 缺少 MRT 模型 ， 上 述 研究 仅 能 估计 学 生 的 多 个 潜在 能 
和 一 个 潜在 加 工 速度 。 从 逻辑 上 讲 不 同 的 潜在 能 力 应 与 不 同 的 潜在 加 工 速度 相 匹 配 ， 因此， 强制 将 多 个 
潜在 加 工 速度 约束 为 一 个 变量 的 做 法 具有 局 限 性 ， 可 能 导致 推论 不 准确 。 在 多 维 测验 中 ， 尽 管 单 维 潜在 
加 工 速度 可 以 被 解释 为 被 试 的 一 般 或 高 阶 潜在 加 工 速 度 , 但 实际 上 , 我 们 仍 渴望 知道 被 试 在 每 一 个 子 维 
度 上 的 潜在 加 工 速 度 。 因 此 ， 开 发 相应 的 MRT 模型 是 有 必要 的 。 

为 解决 上 述 问 题 ， 本 研究 提出 了 多 维 对 数 正 态 RT 模型 (multidimensional LRTM, MLRTM)。 该 模型 
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可 视 为 对 单 维 对 数 正 态 RT 模型 (unidimensional LRTM, ULRTM) (van der Linden, 2006) 的 拓 广 。 首 先 ， 
简单 回顾 了 ULRTM; 其 次 ， 提 出 了 MLRTM; 然后 ， 对 2012 年 PISA 计算 机 化 数学 测验 中 RT 数据 进 
行 了 探索 性 因素 分 析 以 探究 潜在 加 工 速度 的 多 维 结构 ， 使 用 新 提出 的 模型 对 该 数据 做 进一步 分 析 ， 并 与 
ULRTM 进行 对 比 ， 以 展现 新 模型 的 实际 可 应 用 性 和 相对 优势 ; 随后 ， 通 过 一 则 模拟 研究 来 探究 新 模型 
的 心理 计量 学 性 能 ， 最 后 ， 总 结 了 研究 结果 并 讨论 了 未 来 的 研究 方向 。 
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2 多 维 对 数 正 态 作答 时 间 模 型 

2.1 模型 建构 

在 介绍 MLRTM 前 ,我 们 先 简单 回顾 下 ULRTM. WE 7 为 学 生 n (n= 1,..., MIRA i=l, D 
的 作答 时 间 。 则 ULRTM 可 表示 为 


log 7 =§; —T, teEn, Eni ~ N(O, o; ), (1) 


logT,, ~ N(E,-1,, ©). (2) 
其 中 ，&; 为 题目 时 间 强 度 参数 ， 表 示 解 答题 目 i 所 必需 的 时 间 ; tw 是 学 生 n 的 潜在 加 工 速 度 ， 假 定 其 满 
KET, ~N(0,67) 3 gni 为 残 差 ，@i 是 残 差 的 标准 差 的 倒数 ， 可 以 将 其 视 为 题目 时 间 区 分 度 参 数 。ULRTM 
的 基本 假设 之 一 是 log7,; 在 给 定单 维 t 时 满足 条 件 独 立 。 

在 心理 与 教育 测量 中 ， 主 要 有 两 种 多 维 测验 类 型 ， 题目 内 (within-item) 和 题目 间 (between-item) 
(Adams, Wilson, & Wang, W.-C., 1997)。 在 题目 间 多 维 测 验 中 ， 每 个 题目 仅 测量 一 个 维度 的 潜在 能 力 , 但 
不 同 题目 可 能 会 测量 不 同 维度 的 潜在 能 力 ; 而 在 题目 内 多 维 测验 中 , 一 个 题目 可 能 同时 测量 多 个 维度 的 
潜在 能 力 。 从 理论 上 讲 ,， 题目 间 多 维度 是 题目 内 多 维度 的 一 个 特例 ， 因 此 ， 本 研究 借鉴 题目 内 多 维度 的 
表达 式 来 建构 MLRTM。 则 MLRTM 可 表示 为 


K 
logT,,, = gi DAAA + 8» Eni ~ N(O, o) á (3) 
k=1 
或 
天 
logTy ~ NGG; -9 tudu of )， (4) 
k=l 


其 中 ，rwx 是 学 生 半 在 维度 上 KE= 1, 2, . 上 的 潜在 加 工 速度 ， 反 映 了 学 生 n 运用 第 维度 潜在 能 力 来 
解决 问题 的 效率 ; Tn = (Tn, .…, Tm … Tak) 是 遵循 多 元 正 态 分 布 的 多 维 潜在 加 工 速 度 向 量 : t, ~ N(M, E) 
其 中 均值 向 量 p= (u, .… Wo …, hx)' 和 方差 - 协 方差 矩阵 ,pu 是 维度 上 学 生 总 体 的 平均 加 工 速度 。 为 使 
模型 可 识别 ， 将 pw 设置 为 0 向 量 。Q 矩阵 (Tatsuoka, 1983) 是 一 个 Tx 的 验证 性 矩阵 ， 其 中 qx = 1 表示 


题目 i 归属 于 维度 k， 反 之 ok = 0。 对 于 题目 间 多 维度 ，g 中 只 有 一 个 元 素 等 于 1; 对 于 题目 内 多 维度 ， 
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qi 中 有 多 个 元 素 等 于 1。 其 他 参数 与 ULRTM 中 的 参数 相同 。 在 MLRTM 中 ， 假 定 log Tn: E Et 的 情 
况 下 满足 条 件 独 立 。 此 外 ， 若 假定 测验 中 所 有 题目 仅 考 查 同一 个 维度 ， 则 MLRTM 等 价 于 ULRTM. 
2.2 贝 叶 斯 参数 估计 

本 研究 使 用 全 贝 叶 斯 马尔 可 夫 链 蒙特 卡 洛 算法 对 MLRTM 进行 参数 估计 ， 并 基于 MultiBUGS 
(version 1.0) (Goudie, Turner, De Angelis, & Thomas, 2017) 实 现 。 感 兴趣 的 读者 可 向 通讯 作者 索取 
MultiBUGS 代码 ，MLRTM 中 各 待 估计 参数 的 先 验 分 布设 定 详 见 附录 。 


3. 实证 数据 分 析 
3.1 潜在 加 工 速 度 多 维 结构 的 探索 

如 上 文 所 述 ， 本 研究 的 基本 假设 是 , 在 多 维 测验 中 ,潜在 加 工 速度 具有 与 潜在 能 力 相 匹配 的 多 维 结 
构 。 为 了 探索 潜在 加 工 速度 的 多 维 性 , 并 探究 潜在 加 工 速度 的 多 维 结构 是 否 与 潜在 能 力 的 多 维 结构 相 匹 
配 ， 我 们 拟 对 一 则 RT 实证 数据 进行 探索 性 因素 分 析 。 
3.1.1 数据 描述 

本 研究 选用 2012 年 PISA 计算 机 化 数学 测验 中 的 RT 数据 。 该 数据 集 最 初 由 Zhan, Jiao et al. (2018) 
区 用 。 该 数据 包含 N= 1581 名 学 生 对 7= 9 道 题目 的 作答 。 原 始 RT 数据 均 事先 求 取 对 数 ， 并 将 所 有 0 
视 为 缺失 数据 。Zhan, Jiao et al. (2018) 根 据 2012 年 PISA 数学 测评 框架 (OECD, 2013) 设 定 了 Q REL, Æ% 
研究 选择 了 属于 数学 内 容 知 识 的 三 个 维度 , 即 变化 和 关系 (91), 空间 和 形状 (9>), 以 及 不 确定 性 和 数据 (03)， 
见 表 1。 需 要 强调 的 是 ， 该 Q 矩阵 界定 了 题目 和 潜在 能 力 之 间 关 系 ， 即 该 Q 矩阵 表达 的 是 RA 数据 背 
后 的 潜在 能 力 的 多 维 结构 ,此 时 , 若 该 Q 矩阵 与 通过 对 RT 数据 进行 探索 性 因素 分 析 发 现 的 潜在 结构 ( 即 
RT 数据 背后 的 潜在 加 工 速度 的 结构 ) 相 匹配 ， 就 可 说 明 潜在 加 工 速度 具有 与 潜在 能 力 相 匹配 的 多 维 结 
构 。 


表 1.2012 年 PISA 计算 机 化 数学 测验 的 Q HERE. 
题 01 02 03 


M015Q02D 1 
M015Q03D 1 
M020Q01 

M020Q02 

M020Q03 

M020Q04 

M038Q03T 1 
M038Q05 1 
M038Q06 1 
E: ZARR “0” . 


CGO TO 人 GPS 


ns 


局 限 在 认 知 诊断 领域 ， 


4 


! Q 矩阵 本 质 上 只 是 一 个 验证 性 和 矩阵， 用 于 界定 题目 与 潜在 变量 之 间 的 关系 ， 其 使 用 范围 并 不 
其 中 的 潜在 变量 也 并 不 限定 于 知识 、 技 能 等 细 颗 粒 属性 。 


3.1.2 探索 性 因素 分 析 

本 研究 使 用 Mplus (version 8.1) (Muthén & Muthén, 2019) 进 行 探索 性 因素 分 析 。Mplus 默认 使 用 验证 
性 因素 分 析 框 架 下 的 探索 性 因素 分 析 , 本 研究 将 保留 因素 数量 设 为 从 1 到 5。 根据 模型 -数据 拟 合 指标 ( 例 
如 , AIC 和 BIC) 来 确定 因素 数量 以 及 相应 的 潜在 结构 。 理 论 上 ， 多 个 维度 之 间 应 该 存在 相关 ， 因 此 使 用 
斜 交 旋 转 。 其 他 均 采用 默认 设置 。 

表 2 给 出 了 探索 性 因素 分 析 的 模型 -数据 拟 合 指标 。 前 人 研究 表明 TLI > 0.95, CFI> 0.95, SRMR < 
0.08, RMSEA < 0.05 意味 着 良好 的 模型 -数据 拟 合 (Hu & Bentler, 1999; Steiger, 1990)。 综 合 各 个 指标 ， 可 
认为 三 因素 模型 比 其 他 模型 更 适合 该 数据 ， 表 明 RT 数据 背后 具有 三 维 潜在 结构 。 

表 3 给 出 了 三 因素 模型 的 旋转 因素 载荷 矩阵 。 可 发 现 ， 该 因素 载荷 矩阵 与 表 1 中 的 Q EREHE, 
仅 题 目 CM038Q03T 存在 差异 ， 且 CM038Q03T 在 因素 3 上 的 载荷 为 0.300 (p < 0.05)。 因 此 ， 可 以 说 由 
理论 构建 的 潜在 能 力 的 多 维 结构 ( 即 Q 和 矩阵) 与 对 RT 数据 进行 探索 性 因素 分 析 发 现 的 潜在 结构 是 相 匹 配 
的 。 该 结果 支持 了 本 研究 的 核心 假设 ， 即 在 多 维 测验 中 ,潜在 加 工 速度 具有 与 潜在 能 力 相 匹配 的 多 维 结 
构 。 因 此 , 后 续 研究 可 直接 使 用 表 1 中 的 Q ERKI RA 和 RT 数据 背后 一 致 的 多 维 潜在 结构 。 当 然 ， 
由 于 探索 性 因素 分 析 本 身 的 限制 , 我 们 无 法 获得 每 位 学 生 的 潜在 加 工 速 度 估计 值 以 及 每 道 题目 的 题目 参 
数 。 因 此 ， 有 必要 进一步 利用 本 研究 提出 的 MLRTM 进行 数据 分 析 。 


证 


让 


表 2.2012 年 PISA 计算 机 化 数学 测验 数据 的 探索 性 因素 分 析 中 的 数据 -模型 拟 合 指标 . 


Model x? df TLI CFI AIC BIC SRMR RMSEA [90% CI] 
1-factor 462.79" 27 0.896 0.922 24592.15 24737.03 0.045 0.101 [0.093, 0.109] 
2-factor 225.49" 19 0.930 0.963 24370.85 24558.65 0.032 0.083 [0.073, 0.093] 
3-factor 32.66" 12 0.989 0.996 24192.02 24417.38 0.010 0.033 [0.020, 0.047] 
4-factor 5.56 6 1.000 1.000 24176.92 24434.48 0.004 0.000 [0.000, 0.031] 
5-factor 0.09 1 1.006 1.000 24181.44 24465.83 0.000 0.000 [0.000, 0.045] 


YE: “=p<.01; X= 7; df= 自由 度 ; TLI = Tucker-Lewis index; CFI = comparative fit index; AIC = Akaike information 
criterion; BIC = Bayesian information criterion; SRMR = standardized root mean square residual; RMSEA = root mean square 
error of approximation; 90% CI = 90% 置 信 区 间 . 


表 3. 三 因素 模型 的 旋转 因素 载荷 矩阵 . 


题 因素 1 因素 2 因素 3 
CM015Q02D 0.695" 
CM015Q03D 0.609" 
CM020Q01 0.565* 
CM020Q02 0.801* 
CM020Q03 0.642* 
CM020Q04 0.943* 
CM038Q03T 0.502* 
CM038Q05 0.985" 
CM038Q06 0.621" 


Pez 
mY 


E: *=p<.05; 未 呈现 因素 载荷 .4 以 下 的 值 . 


3.2 采用 多 维 对 数 正 态 作答 时 间 模 型 进行 分 析 


3.2.1 分 析 


为 实现 对 RT 数据 的 深入 分 析 ， 本 研究 同时 使 月 


结果 表明 表 1 中 的 Q FARE 


适用 于 描述 


条 马尔 可 
迁 代 进行 
的 MC_ error 均 小 于 0.05, 


择 。 使 用 后 验 预 测 模型 
后 验 预 测 


概率 (posterior predictive probability, ppp) 接 近 


合适 的 差异 测度 的 必要 的 ， 本 研究 选 


被 试 n 和 题目 


Marianti, 2017) 来 评估 RT 模型 的 整体 拟 
Dilog T; v) = D(log 


3.2.2 结果 


合 情 况 : 


N I 
Ti Ci T,, 0;) = 22, 


n=l i=l 


K 4 呈现 了 模型 -数据 拟 合 指标 。 


其 中 ，ULRTM 和 MLRTM 的 ppp 值 


这 两 个 模型 均 拟 合 该 数据 。 进 一 步 ， 
高 ， 说 明 在 多 维 


更 高 


表 5 呈现 了 方差 - 协 方差 矩阵 估计 值 。 


明 这 三 个 潜在 加 工 速度 为 中 等 偏 高 程度 
都 归属 于 数学 内 容 知识 这 


H ULRTM 和 MLRTM 分 析 该 数据 。 探 索性 
题目 和 潜在 加 工 速度 之 间 的 关系 。 在 贝 叶 斯 MCMC 估计 中 设 定 2 


夫 链 ， 每 条 链 包含 5000 次 迭代 (其 中 前 2000 次 做 burn-in)， 最 后 保留 两 
参数 估计 推断 。 使 用 MC_error 指标 进行 参数 估计 收敛 检验 (Ntzoufras, 2009)， 本 研究 所 有 参数 
表示 参数 估计 已 收敛 。 
本 研究 使 用 DIC 和 WAIC (Gelman et al., 2014, Chapter 7) 作 为 模型 -数据 相对 拟 合 指标 进行 模 
I 检验 (posterior predictive model checking, PPMC) 来 评估 模型 
0.5 表明 模型 


三 个 潜在 加 工 
FAK, 即 三 者 之 间 


更 高 阶 的 维度 。 另 外 ，ULRTM 中 单 维 


(95%CI = [0.197, 0.231]) ， 
m 


| 


图 


1 呈现 了 前 20 名 被 试 的 潜在 加 了 


不 仅 无 法 区 分 不 同 维 
BE 3 (不 确定 性 和 数据 ) 上 所 有 被 试 的 潜在 加 工 速度 之 间 的 差异 性 


[速度 估计 值 。 


的 潜在 加 工 速度 都 是 不 同 的 ， 甚 至 有 


工 速度 估计 值 的 正 负 号 都 不 同 。 此 时 ， 
此 给 被 试 贴 上 诸如 “和 急 先 锋 ” 或 “ 慢 即 
加 工 速度 之 间 的 差异 。 


”的 标签 ) 势 必 过 


I 较 高 


度 上 的 潜在 加 工 速度 ， 


些 被 试 (例如 , 被 试 2、6、7、 


若 使 用 ULRTM 中 的 单 维 
于 笼统 ， 无 法 体现 


致 性 但 仍 ; 


条 链 剩余 的 共 


-数据 绝对 拟 合 


与 数据 拟 合 。 对 PPMC 而 言 选 取 一 个 
i 的 标准 化 误差 函数 之 和 作为 差异 测量 (Fox & 


(o (logT, - (6; 一 > gx ») j 


A 0.751 到 0. 


因素 分 析 


E 6000 次 


型 
， 其 


分 别 为 0.597 和 0.633， 表 明 
由 -2LL、DIC 和 WAIC 指标 均 表 示 MLRTM 对 该 数据 的 拟 合 程度 
测验 中 考虑 潜在 加 工 速度 的 多 维 性 是 更 合适 的 。 
速度 之 间 的 相关 系数 范围 


855， 表 


潜在 力 


oO 


12, 


表 6 呈现 了 题目 参数 估计 值 。 对 题 
虑 潜在 加 工 速度 的 多 维 性 并 不 影响 题目 


目 时 间 强 度 参数 而 言 ， 
时 间 强 度 参数 的 估计 。 与 之 相 比 ，MLRTM 对 题目 时 间 


数 的 估计 值 略 大 于 ULRTM 的 ， 即 ULRTM 会 低估 log RT 的 峰 度 值 。 


K 4. 2012 年 PISA 计算 机 化 数学 测验 数据 分 析 中 模型 


分 析 模 型 -2LL 


-数据 拟 合 指标 
DIC 


WAIC 


还 低估 了 维 
( 即 方差 被 低估 )。 
根据 MLRTM 的 估计 结果 ， 每 个 被 试 在 3 个 维度 
15) 在 3 个 维度 上 的 潜在 加 
估计 值 作为 被 试 的 反馈 信息 ( 


出 被 试 在 不 同 维度 上 潜在 


青 晰 可 分 。 主 要 原因 是 三 者 


速度 的 方差 估计 值 


为 0.216 


E 1 (变化 利 


I 关系) 和 


两 模型 的 参数 估计 结果 基本 一 致 ， 
区 分 度 参 


Ppp 


表明 考 


6 


MLRTM 19305 22505 22055 0.633 

ULRTM 21310 22890 22770 0.597 
VE: ULRTM = 单 维 对 数 正 态 作答 时 间 模 型 ; MLRTM = 多 维 对 数 正 态 作答 时 间 模 型 ; -2LL = -2 log likelihood; DIC = 
deviance information criterion; WAIC = widely available information criterion; ppp = 后 验 预 测 概率 . 


表 5. 2012 年 PISA 计算 机 化 数学 测验 数据 分 析 中 多 维 潜 在 加 工 速度 的 方差 - 协 方差 矩阵 估计 值 
Xt Tl T2 T3 
0.301 (0.016) 


U 


ti (0.270, 0.334] 0.751 0.767 
7 0.185 (0.010) 0.202 (0.010) cons 
[0.167, 0.204] [0.184, 0.220] 
0.227 (0.012) 0.208 (0.009) 0.292 (0.013) 
a (0.206, 0.250] [0.190, 0.226] [0.266, 0.317] 


TE: t= 潜在 加 工 速度 ; Zr = 多 维 潜在 加 工 速度 的 方差 - 协 方差 矩阵 ; 上 三 角 阵 为 相关 系数 ， 下 三 角 阵 为 协 方差 ， 小 括号 
内 为 标准 误 ( 后 验 分 布 标准 差 )， 中 括号 内 为 95% 贝 叶 斯 可 信和 区间. 


: if | 
e 
Aa i | | I 


| LL 


12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
E MLRTM tl E MLRTM 12 © MLRTM_13 è ULRMT + 


1. 2012 年 PISA 计算 机 化 数学 测验 数据 分 析 中 前 20 名 被 试 潜在 加 工 速度 估计 值 
注 : ULRTM = 单 维 对 数 正 态 作答 时 间 模 型 ; MLRTM = 多 维 对 数 正 态 作 答 时 间 模 型 ; r= 潜在 加 工 速 度 . 


表 6. 2012 年 PISA 计算 机 化 数学 测验 数据 分 析 中 题目 参数 估计 值 
ULRTM MLRTM 


Mean SE 95% CI Mean SE 95% CI Mean SE 95% CI Mean SE 95% CI 
[1.558,1.678] 4.469 0.020 [4.433,4.510] 1.845 0.045 [1.760,1.936] 
[1.635,1.762] 4.629 0.019 [4.594,4.668] 1.976 0.051 [1.874,2.076] 
4.778 0.016 [4.750,4.811] 2.423 0.050 [2.327,2.519] 4.778 0.015 [4.747,4.807] 2.505 0.055 [2.397,2.612] 
3.860 0.018 [3.825,3.895] 1.866 0.036 [1.793,1.934] 3.859 0.017 [3.825,3.894] 1.915 0.038 [1.841,1.991] 
4.258 0.016 [4.226,4.291] 2.186 0.044 [2.104,2.274] 4.258 0.016 [4.224,4.287] 2.202 0.047 [2.112,2.295] 
[ [ 
[ [ 
[ [ 
[ [ 


m 


4.470 0.020 [4.432,4.508] 1.617 0.031 
4.630 0.019 [4.592,4.667] 1.697 0.032 


3.739 0.017 [3.707,3.774] 2.031 0.040 [1.958,2.116] 3.739 0.017 [3.706,3.771] 2.097 0.043 [2.012,2.179] 
4.190 0.016 [4.158,4.220] 2.314 0.047 [2.221,2.406] 4.189 0.017 [4.156,4.222] 2.516 0.063 [2.393,2.638] 
1.809,1.950] 4.522 0.018 [4.488,4.558] 2.091 0.047 [1.995,2.180] 
1.533,1.656] 4.379 0.021 [4.339,4.420] 1.701 0.036 [1.632,1.771] 


4.522 0.018 [4.487,4.557] 1.879 0.036 
4.377 0.020 [4.338,4.417] 1.600 0.031 


O ON Dn Wn FP W WN 


ue 4.316 0.202 [3.901,4.701] 


4.315 0.199 


[3.914,4.708] 


o 0.367 0.217 [0.103,0.751] 0.366 0.219 [0.113,0.763] 
TE: ULRTM = 单 维 对 数 正 态 作 答 时 间 模 型 ; MLRTM = 多 维 对 数 正 态 作答 时 间 模 型 ; Mean = 后 验 均值 ; SE = 标准 误 (后 
验 分 布 标准 差 ); 95% CI = 95% 贝 叶 斯 可 信 区 间 ， 
4 模拟 研究 

上 文 已 经 通过 实证 研究 前 述 了 MLRTM 的 实用 性 。 进 一 步 ， 我 们 使 用 两 则 模拟 研究 来 探究 新 模型 
的 心理 计量 学 性 能 , 以 期 进一步 验证 实证 数据 分 析 中 所 得 到 的 结论 。 两 个 模拟 研究 均 基 于 实证 研究 情境 ， 
其 中 , 研究 1 拟 探究 (1D) MLRTM 的 参数 估计 返 真 性 和 (2) 忽 略 潜在 加 工 速 度 多 维 性 所 带 来 的 影响 。 此 时 ， 


使 用 MLRTM 作为 数据 生成 模型 ， 并 使 月 


H MLRTM 和 ULRTM 进 


行 参数 估计 。 研 究 2 拟 探究 元 余地 指 


Xiv:202002.00087v3 


china 


定 潜 在 加 工 速度 具有 多 维 性 所 带 来 的 影响 。 此 时 ， 使 用 ULRTM 作为 数据 生成 模型 ， 并 使 用 MLRTM 和 
ULRTM 进行 参数 估计 。 
4.1 模拟 研究 1 
4.1.1 数据 生成 与 分 析 
模拟 研究 1 中 ， 设 定 30 道 题目 考查 4 个 维度 ， 对 应 的 Q ERENER 2 中 。 参 考 实证 研究 中 的 估 


! 参 数 的 真 值 。 对 题目 参数 而 言 ， 时 间 强 度 参 数 依 据 与 ~ N(4, 0.25) 生 成 ; 而 时 间 区 分 度 参 


计 值 来 设 定 模 型 
数 依 据 @i~ N(2, 0.25) 生 成 。 被 试 量 N= 1000， 多 维 潜 在 加 工 速度 参数 依据 四 元 正 态 分 布 生 成 


三 | 


里 


Ta 0) (0.25 
Ty 0 || 0.15 0.25 
~N l 
T 0 站 0.15 0.15 0.25 
T 0)(0.15 0.15 0.15 0.25 


该 设 定 下 ，pw = 0.6。 基 于 MLRTM 生成 50 组 RT 数据 。 
分 别 使 用 MLRTM 和 ULRTM WEER GE. MEF, SORT ABER. KERR GS 
均 与 实证 研究 中 保持 一 致 。 采 用 bias Fl RMSE 来 评估 参数 估计 返 真 性 ; 另外， 也 计算 了 各 参数 估计 值 


与 其 真 值 之 间 的 相关 系数 (Con)。 
1 


其 


N 


2 


5 


3.4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 222 
| | tt yt ft 
| 


3 24 25 26 27 28 29 30 


|_| 
| | | 
图 2. 模拟 研究 1 P K x IH Q ERE 


注 : 灰色 为 1、 白 色 为 0. 
4.1.2 结果 
图 3 呈现 了 题目 参数 返 真 性 。 首 先 ， 整 体 来 看 MLRTM 的 返 真 性 较 好 。 其 次 ， 对 时 间 强 度 参数 而 
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言 ， 两 模型 的 返 真 性 较为 接近 。 对 时 间 区 分 度 参数 而 言 ，MLRTM 的 返 真 性 要 优 于 ULRTM 的 返 真 性 ， 
尤其 是 对 题目 内 多 维 题目 。 明 确 地 说 ， 对 时 间 区 分 度 参 数 而 言 ，ULRTM 的 bias 和 RMSE 在 题目 间 多 维 
题目 (题目 1 ~20) 上 分 别 约 为 -0.30 和 0.35; 在 题目 内 两 维 题目 (题目 21 ~ 28) 上 约 为 -0.60 和 0.65; 在 题 
目 内 三 维 题目 (题目 29~ 30) 上 约 为 -1.0 和 1.0。 即 ULRTM 整体 会 低估 题目 区 分 度 参数 ， 这 与 实证 数据 
分 析 中 的 结论 相 一 致 ， 此 外 ，ULRTM 对 题目 区 分 度 参数 的 返 真 性 会 随 着 题目 所 考查 的 维度 数量 增加 而 

表 7 总 结 了 被 试 参数 的 返 真 性 。 对 每 一 个 维度 而 言 ， 所 有 被 试 的 平均 绝对 bias 和 平均 RMSE 均 分 
别 约 为 0.016 和 0.145， 且 所 有 被 试 的 真 值 和 估计 值 之 间 的 相关 系数 也 高 于 0.95。 表 8 呈现 了 被 试 参数 
方差 - 协 方差 矩阵 的 返 真 性 。 所 有 参数 的 bias 和 RMSE 均 接 近 于 0， 返 真性 很 好 。 

总 之 ， 根 据 模拟 研究 结果 表明 MLRTM 可 以 得 到 较 好 的 参数 估计 返 真 性 。 当 数据 包含 潜在 的 多 维 
潜在 加 工 速度 时 ， 使 用 ULRTM 会 低估 时 间 区 分 度 参 数 ， 而 时 间 强 度 参 数 几 乎 不 受 影响 。 


(a) 时 间 强 度 参数 (b) 时 间 区 分 度 参数 
0.04 1.60 
1.20 
0.03 r 
0.80 a. f 
0.02 ~、 ‘ath ooo 7 = pee a S 


Ws 


LI 
-0.01 
1.20 | 
0.02 1.60 
12 3 4 5 6 7 8 9 1011 1213 1415 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 12 3 4 5 6 7 8 9 10111213 1415 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 
EE Bias ME Bias U -一 RMSE M-- RMSE U EE Bias ME Bias U -一 RMSE M-- RMSE_U 


3. 模拟 研究 1 中 题目 参数 返 真性 (题目 水 平 ) 
HE: U= 单 维 对 数 正 态 作答 时 间 模型 ; M = 多 维 对 数 正 态 作答 时 间 模 型 ; RMSE = 均 方 根 误差 


RT 模拟 研究 1 中 被 试 参数 返 真性 的 总 结 


Parameter MA bias M RMSE Cor 
Tl 0.016 0.147 0.956 
T2 0.017 0.147 0.955 
T3 0.016 0.144 0.957 
T4 0.017 0.143 0.958 


I 


YE: t= 潜在 加 工 速度 ; MA bias = 所 有 被 试 的 bias 的 绝对 均 1 


À ; M RMSE = 所 有 被 试 的 RMSE 的 均值 ; Cor = 所 有 被 试 
的 真 值 与 估计 值 之 间 的 相关 系数 . 


表 8.， 模拟 研究 1 中 被 试 参数 的 方差 协 方差 矩阵 返 真 性 


Et Tl T2 T3 T4 

Tl 0.00003 (0.00000) 

T2 0.00023 (0.00003) 0.00069 (—0.00010) 

T3 0.00031 (0.00004) 0.00015 (0.00002) 0.00015 (0.00002) 

T4 0.00015 (0.00002) 0.00041 (—0.00006) 0.00020 (0.00003) 0.00079 (0.00011) 
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TE: t= 潜在 加 工 速度 ; Zr = 多 维 潜在 加 工 速度 的 方差 - 协 方差 矩阵 ; 括号 内 为 均 方 根 误差 (RMSE)， 括 号 外 为 bias. 


4.2 模拟 研究 2 
4.2.1 数据 生成 与 分 析 

模拟 研究 2 中 ， 设 定 30 道 题目 考查 单一 维度 。 同 样 参考 实证 研究 中 的 估计 值 来 设 定 模型 参数 的 真 
值 。 对 题目 参数 而 言 , 时 间 强 度 参数 依据 &; ~ N(4, 0.25) 生 成 ; 而 时 间 区 分 度 参 数 依据 o ~ N(2, 0.25) 生 成 。 
被 试 量 N= 1000, 单 维 潜在 加 工 速 度 参数 依据 t ~ N(0, 0.25) 生 成 。 基于 ULRTM 生成 50 组 RT 数据 。 同 
样 ， 分 别 使 用 MLRTM 和 ULRTM 去 拟 合生 成 数据 ; 其中， 使 用 MLRTM 时 元 余地 将 单 维 潜在 结构 设 
定 为 图 3 中 的 多 维 潜 在 结构 。 分 析 过 程 与 指标 等 与 模拟 研究 1 保持 一 致 。 
4.2.2 结果 
图 4 呈现 了 研究 2 中 题目 参数 的 返 真 性 。 对 于 题目 时 间 强 度 参数 而 言 ， 两 模型 的 参数 估计 返 真 性 基 
本 一 致 。 而 对 于 题目 时 间 区 分 度 参 数 而 言 ，MLRTM 的 返 真 性 略 差 于 ULRTM 的 。 再 结合 研究 1 中 结果 
( 见 表 7)， 发 现 元 余地 指定 潜在 加 工 速度 具有 多 维 性 所 带 来 的 负面 影响 低 于 忽略 潜在 加 工 速度 多 维 性 所 
带 来 的 。 

表 9 呈现 了 研究 2 中 被 试 参数 返 真 性 。 相 比 而 言 ，MLRTM 的 返 真性 略 差 于 ULRTM 的 。 但 根据 
Cor 指标 可 发 现 即便 元 余地 把 单 维 结构 指定 为 四 个 维度 ， 每 个 维度 的 估计 值 与 真 值 之 间 仍 具有 很 高 的 相 
关系 数 。 同 时 , 我 们 计算 了 MLRTM 中 四 个 维度 的 潜在 加 工 速度 的 估计 值 与 ULRTM 中 单 维 潜在 加 工 速 
度 的 估计 值 之 间 的 相关 系数 ， 分 别 为 pa = 0.990. per = 0.989. pers = 0.987 和 pw = 0.989， 即 两 模型 的 
潜在 加 工 速度 估计 值 具 有 很 高 的 一 致 性 。 此 外 ， 我 们 还 计算 了 MLRTM 中 四 个 维度 的 潜在 加 工 速度 之 
间 的 相关 系数 , 分 别 为 pu,w = 0.979, pria = 0.977; pri = 0.981, p2a3 =0.975、pww4 = 0.978 Fpa, = 0.977, 


m 


即 四 个 维度 的 估计 值 之 间 具 有 很 高 的 相关 性 ， 表 明 它 们 测量 /描述 的 很 可 能 是 同一 个 潜在 变量 。 
(a) 时 间 强 度 参 数 (b) 时 间 区 分 度 参数 
0.04 1.60 
1.20 
0.03 
0.80 
T fg PALE ELA. 
| 0.40 
0.01 0.00 aas LU Gl N 
ð ano Tl, of lar ee? | 
ri l l 0.80 
-0.01 
] -1.20 EE E F 
im | LT | | | 
-0.02 LI -1.60 | 
123456789101112131415161718192021222324252627282930 123456789101112131415161718192021222324252627282930 
EE Bias M C] Bias U— RMSE M -- RMSE _U EE Bias M C] Bias U — RMSE M -- RMSE U 
图 4. 模拟 研究 2 中 题目 参数 返 真 性 (题目 水 平 ) 


TE: U= 单 维 对 数 正 态 作答 时 间 模 型 ; M= 多 维 对 数 正 态 作答 时 间 模 型 ; RMSE = 均 方 根 误差 . 
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RO 模拟 研究 2 中 被 试 参数 返 真 性 
分 析 模 型 参数 MA bias M_RMSE Cor 
ULRTM T 0.013 0.088 0.985 
MLRTM tı 0.023 0.197 0.974 
T 0.026 0.226 0.973 
T3 0.027 0.235 0.971 
T4 0.023 0.199 0.974 
YE: MLRTM 中 各 变量 的 返 真 性 指标 中 真 值 均 为 单 维 潜在 加 工 速度 的 生成 值 ;t= 潜在 加 工 速度 ; MA_bias = 所 有 被 试 的 
bias 的 绝对 均值 ，M_RMSE = 所 有 被 试 的 RMSE 的 均值 ; Cor = 所 有 被 试 的 真 值 与 估计 值 之 间 的 相关 系数 


5 总 结 与 展望 


为 探究 并 分 析 多 维 测 验 中 潜在 力 
数 正 态 作答 时 间 模 型 的 多 维 拓 广 。 随 后 ， 本 文 以 2012 年 PISA 计算 机 化 数学 测验 中 RT 数据 为 
E 因 素 分 析 发 现 RT 数据 背后 
结构 ( 即 专家 界定 的 Q FE BE) AA 
在 能 力 相 匹配 的 多 维 结构 。 然 后 ， 采 月 
比 ， 结 果 表 明 在 多 维 测验 中 考 
H Fo 


TREY 


Te 


H 


[ 速 


度 的 多 维 愧 


的 多 维 潜在 结构 ( 即 潜在 力 
匹配 ， 验 证 了 本 研究 的 基本 假设 : 在 多 维 测验 中 ,潜在 加 工 速 度 上 共有 与 潜 


计量 学 性 能 ,模拟 


数 佑 计 返 真性 


E; (DAK EHI 


BH, ABA 


FE 会 随 着 题目 


虑 潜在 加 工 速度 的 多 维 
究 1 结果 表明 (1) 贝 叶 斯 MCMC 算法 能 够 为 MLRTM 提供 较 好 的 参 
[速度 的 多 维 性 对 题目 
所 考查 的 维度 数量 增加 而 变 差 。 模 拟 研究 2 结果 表明 (1) 宛 余地 指定 潜在 加 


Ls 


本 研究 提出 了 MLRTM， 新 模型 可 视 为 对 单 
列 ， 
[速度 的 多 维 结构 ) 与 多 维 潜在 能 力 的 型 


维 对 


b= 


通过 


E 论 


oO 


上 新 模型 对 该 数据 做 进一步 分 析 ， 并 与 ULRTM 的 分 析 结果 进行 对 
生 是 适合 且 必要 的 。 最 后 ,通过 两 则 模拟 研究 探究 


工 速度 具有 多 维 性 对 题目 
有 多 维 性 时 ， 基 于 MLRTM ff 
拟 研 究 1 和 2 


速 


FE 


LN 


He 
H 


2 


ka 


EPEN 
低估 时 间 


来 


区 


4 


JJ 


强度 参数 几乎 无 影响 ， 但 会 低估 时 间 
的 多 维 潜在 加 工 速度 估计 值 之 间 具 有 
的 结果 ， 可 发 现 () 宛 余地 指定 潜在 加 了 
的 ; (2) 当 潜在 加 工 速度 具有 多 维 潜在 


lan 


一 口 


会 低估 时 
WASTE 


间 


区 


分 度 参数 。 因 此 ， 对 时 间 


单 维 结构 。 而 实证 研究 中 ，ULRTM 对 时 间 


的 潜在 加 工 速度 具有 多 维 结构 。 


当然 ， 尽管 该 研究 得 到 了 较 好 的 结果 , 但 由 于 
先 ，MLRTM 是 对 经 典 的 ULRTM 的 多 维 扩展 。 由 于 对 RT 进行 对 数 变换 后 仍 有 可 能 违 


进一步 探究 。 


反正 态 性 假设 ， 
al., 2009). 2&4 


te 


L 
u 


首 


因此 可 尝试 对 本 文 所 提 


上 工 速度 具有 多 维 结构 ; 反之 ， 当 ULRTM 的 估计 值 大 于 MLRTM 的 时 ,可 推断 潜在 加 工 速度 具 
区 分 度 参 数 的 估计 值 小 了 


SEAN 


l Re 


变换 (Wang, C. et al., 2013) 以 及 Log-Skew-Normal 变换 (孟祥斌 , 2016) 等 。 


HA) MLRTM 为 补偿 模型 ， 即 假设 多 维 潜在 加 工 速度 之 间 是 相互 补偿 的 。 在 题目 
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[速度 
构 时 ( 即 MLRTM 为 数据 4 
} 度 参数 ， 而 当 潜 在 加 工 速 度 为 单 维 结构 时 ( 即 ULRTM 为 数据 生成 模型 )， 使 月 
区 分 度 参数 而 言 ， 当 ULRTM 的 估计 值 小 于 


JAJAR, $i 


E ÉJ MLRTM 做 进 


强度 参数 几乎 无 影响 ， 但 会 大 幅 低估 时 间 区 分 度 


a 


Ke 


区 分 度 参数 ，(2) 当 元 余地 指定 潜在 加 工 
很 高 程度 相关 。 此 外 ， 结 合 模 
所 带 来 的 负面 影响 低 于 忽略 其 多 

成 模型 )， 使 用 ULRTM 会 


具有 多 维 性 


H MLRTM 也 


F MLRTM 的 时 ， 可 推 


Jù 


] 


hy 


F MLRTM 的 ， 可 推断 实证 


完 仍 有 一 些 局 限 性 值得 后 续 做 


步 拓 展 ， 例 如 Box-Cox 变换 (Klein Entink et 
其 次 ， 本 研究 


右 


~ 


内 多 维 测验 中 ， 


chinaXiv:202002.00087v3 


BOAO 


E 某 一 维度 中 的 潜在 加 工 速度 较 慢 , 则 可 以 通过 在 另 一 维度 中 的 潜在 加 工 速 度 来 弥补 。 而 至 于 潜在 


加 工 速度 之 间 是 否 存 在 非 补偿 (或 部 分 补偿 ) 关 系 也 值得 今后 做 进一步 探讨 并 开发 相应 的 模型 。 再 次 ， 限 


于 研究 议题 ， 本 下 


据 同时 包含 被 试 和 题目 的 信息 , 今后 可 基于 贝 叶 斯 层级 建 模 框架 ,尝试 建构 可 同时 
多 维 潜在 加 工 速度 的 多 维 联合 模型 ( Zhan, Jiao, Wang, & Man, 2018); 另外 ，MLRTM 是 基于 题目 内 多 维 
度 提 出 的 ， 可 同时 处 理 题 目 内 多 维和 题目 间 多 维 测验 情境 。 但 因为 实证 数据 仅 涉 及 题目 间 多 维 ， 所 以 从 


究 仅 分 析 了 RT 数据 ， 而 没有 同时 对 RA 和 RT 数据 进行 联合 分 析 。 鉴 于 RA 和 了 RT 数 


分 析 多 维 潜在 能 力 和 


更 严谨 的 角度 看 ,实证 研究 结果 仅 为 “潜在 加 工 速度 共有 与 潜在 能 力 相 匹 配 的 蔬 恨 局 多 维 结构 ”提供 证 


据 。 因 此 ， 尚 缺乏 证 据 表 明 “ 潜 在 加 工 速度 具有 与 潜在 能 力 相 匹 配 的 万 月 用 多 维 结构 ”， 有 待 后 续 研究 


进行 


KI. 


究 MLRTM 的 心理 计量 学 性 能 ， 主 要 目的 在 于 进一步 支持 实证 研究 中 的 结论 。 尽 
型 的 参数 估计 返 真 性 较 好 且 为 实证 数据 分 析 结 果 提 供 了 文 撑 ( 例 如 ， 忽 略 潜在 加 工 


时 间 强 度 参 数 无 影响 , 但 会 低估 题目 时 间 区 分 度 参数 ), 但 未 来 仍 可 考虑 增加 模拟 有 


再 另外 ， 实 证 研究 中 的 题目 数量 较 少 ， 可 能 会 影响 参数 估计 的 精度 和 结论 的 准确 性 。 因 此 ， 
所 得 结论 的 普 适 性 仍 有 待 在 更 多 的 实证 研究 中 进行 验证 。 最 后 ,本 研究 采用 了 相对 入 


简单 的 模拟 研究 来 探 
管 研究 结果 表明 新 模 
速度 的 多 维 性 对 题目 


进而 在 


究 中 的 自 变 量 (条 件 )， 


E 更 复杂 、 丰 富 的 情境 下 探究 新 模型 的 心理 计量 学 性 能 ， 为 后 续 实 证 研究 提供 更 丰富 的 理论 参考 。 
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附录 : MLRTM 中 各 待 估计 参数 的 先 验 分 布设 定 


对 于 MLRTM， 首 先 ， 根 据 条 件 独 立 性 假设 ， 
logT; ~N 


AL 


其 中 ， 多 维 潜 在 加 工 速度 向 量 的 先 验 分 布 为 : 


K 
(6 一 》 ities o; ) 
k=l 


t, ~ N(0,2.), 


其 中 ， 方 差 - 协 方差 矩阵 的 超 先 验 为 : 


其 中 ，R 为 玉 维 对 角 和 矩阵 。 
对 题目 参数 而 言 ， 


6 


其 中 ， 均 值 和 方差 的 超 先 验 为 : 


Zr ~ InvWishart(R, K), 


~ N(u;,0;) > 


He ~ N(4.3, 2) Moz ~ InvGamma(1, 1). 


Zhan 等 (2018) 的 研究 表明 ， 对 于 2012 4E PISA iF 


机 化 数学 测验 数据 中 所 有 被 试 在 所 有 题目 上 的 平均 


log RT 约 为 4.301， 因 此 我 们 将 瑟 的 均值 设 定 43。 另 外 ，o? ~ InvGammall, 1). 
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Abstract 

With the popularity of computer-based testings, the collection of item response times (RTs) and other 
process data has become a routine in large- and small-scale psychological and educational assessments. RTs 
not only provide information about the processing speed of respondents but also could be utilized to improve 
the measurement accuracy because the RTs are considered to convey a more synoptic depiction of the 
participants’ performance beyond responses alone. In multidimensional assessments, various skills are often 
required to answer questions. The speed at which persons were applying a set of skills reflecting distinct 
cognitive dimensions could be considered as multidimensional as well. In other words, each latent ability was 
measured simultaneously with its corresponding working efficiency of applying a facet of skills in a 
multidimensional test. For example, the latent speed corresponding to the latent ability of decoding of an 
algebra question may differ from encoding. Therefore, a multidimensional RT model is needed to 
accommodate this scenario, which extends various currently proposed RT models assuming unidimensional 
processing speed. 

To model the multidimensional structure of the latent processing speed, this study proposed a 
multidimensional log-normal response time model (MLRT) model, which is an extension of the 
unidimensional log-normal response time model (ULRTM) proposed by van der Linden (2006). Model 
parameters were estimated via the full Bayesian approach with the Markov chain Monte Carlo (MCMC). A 
PISA 2012 computer-based mathematics RT dataset was analyzed as a real data example. This dataset contains 


RTs of 1581 participants for 9 items. A Q-matrix (see Table 1) was prespecified based on the PISA 2012 


16 


mathematics assessment framework (see Zhan, Jiao, Liao, 2018); three dimensions were defined based on the 
mathematical content knowledge, which are: 1) change and relationships (81), 2) space and shape (82), and, 3) 
uncertainty and data (03). One thing to note is that the defined Q-matrix served as a bridge to link items to the 
corresponding latent abilities, which shows the multidimensional structure of latent abilities. First, exploratory 
factor analysis (EFA) was conducted with the real dataset to manifest the multidimensional structure of the 
processing speed. Second, two RT models, i.e., the ULRTM and the MLRTM, were fitted to the data, and the 
results were compared. Third, a simulation study was conducted to evaluate the psychometric properties of the 
proposed model. 

The results of the EFA indicated that the latent processing speed has a three-dimensional structure, which 
matches with the theoretical multidimensional structure of the latent abilities (i.e., the Q-matrix in Table 1). 
Furthermore, the ULRTM and the MLRTM yield adequate model data fits according to the posterior predictive 
model checking values (ppp = 0.597 for the ULRTM and ppp = 0.633 for the MLRTM). Furthermore, by 
comparing the values of the —-2LL, DIC, and WAIC across the ULRTM and the MLRTM, the results indicate 
that the MLRTM fits the data better. In addition, the results show that (1) the correlations among three 
dimensions vary from medium to large (from 0.751 to 0.855); (2) the time-intensity parameters estimates of 
the two models were similar to each other. However, in terms of the time-discrimination parameters, the 
estimates of the ULRTM were slightly lower than the MLRTM. Moreover, the results from the simulation 
study show: 1) the model parameters were fully recovered with the Bayesian MCMC estimation algorithm; 2) 
the item time-discrimination parameter could be underestimated if the multidimensionality of the latent 
processing speed gets ignored, which meets our expectation, whereas the item time-intensity parameter stayed 
the same. 

Overall, the proposed MLRTM performed well with the empirical data and was verified by the simulation 
study. In addition, the proposed model could facilitate practitioners in the use of the RT data to understand 
participants' complex behavioral characteristics. 

Key words item response times; multidimensional latent processing speed; item response theory; 


computer-based testing; PISA 


